Contact
KNOWLEDGE
網頁設計新知
文章分類列表
Google開源可準確辨識不同人聲的AI演算法 即時辨識多人對話挑戰賽中平均100句只錯7句!!
觀看次數:804

Google開源可準確辨識不同人聲的AI演算法

即時辨識多人對話挑戰賽中平均100句只錯7句!!

Google本周透過GitHub開源*(開放的原始碼)了可即時辨識不同人聲及話語AI演算法,在線上解碼的準確率已高達92.4%,希望能夠拋磚引玉以激發更多類似的研究。

在模型中以「說話者自動分段標記」為辨識系統的關鍵功能,他能區分一段語音裡不同的發言者及其所說的話語!!所以只以一般的監督式學習(較為古板,訓練方式需要將資料做"標記"來讓系統記憶)用來訓練這類的系統其實並不簡單,一個完整的辨識模型必須能夠連結未曾出現在訓練中的話語及發言者,且這通常會限制線上以及離線時的標記狀況、尤其是需要馬上產生結果的即時系統。

0f282fa57ac8fc3cd18660e3f046a352_s_1

因此GOOGLE的研究人員強化了原先的監督式學習自動分段標記,命其名為[無界交錯狀態遞歸神經網路],比循環神經網路(RNN)更有效率的方式來利用這些說話者標籤。

強化過後的模型一般叢集演算法最大差別在所有的說話儲存的向量都是由共享參數的RNN所建構,再利用不同的時間交錯RNN狀態來區分哪個說話者。因為每個說話者都有各自的RNN空間,此藉由給予新說話者新的向量來持續更新RNN的狀態、所以當不同的人出現時就會切換到RNN實例並且更新其狀態。

45ffbf2eaf269707c6585b2bc684f437_s_1

而該模型在多人會談中成功辨識了「誰在什麼時間說了什麼話」的語音挑戰!!在NIST SRE 2000 CALLHOME基準測試中的最低錯誤率只有7.6%,也凌駕叢集方法的8.8%,以及深度神經網路嵌入方法的9.9%。而GOOGLE強調這錯誤率是基於線上解碼,另一個意思表示所研究的模型更適合用來應付即時狀況呢!!!

 children-593313_640_1

SSL認證過期?讓Certificate Expiry Monitor提醒你
CockroachDB釋出全託管服務,可以在不同雲端供應商間自由搬遷!!!